TLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
نویسندگان
چکیده
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateur d’agrégation par catégorisation nommé TLabel (Text Label) permettant d’agréger les données textuelles en plusieurs classes de documents. A chaque classe sera associée une étiquette (Label) qui représente le contenu sémantique des données textuelles de la classe grâce à une adaptation des techniques de fouille de textes à l’OLAP. Nous avons effectué une étude expérimentale sur notre opérateur TLabel. Les résultats préliminaires montrent l’intérêt de notre approche pour l’analyse en ligne des données textuelles.
منابع مشابه
C-CUBE: Un nouvel opérateur d'agrégation pour les entrepôts de données en colonnes
RÉSUMÉ. Les bases de données orientées colonnes offrent au domaine décisionnel le modèle le plus approprié au stockage des entrepôts de données. Cependant, en l’absence d’opérateurs d’analyse en ligne, le seul moyen, très coûteux, qui existe pour construire des cubes OLAP consiste à utiliser l’opérateur UNION sur des requêtes de regroupement afin d’obtenir l’ensemble des Group By nécessaires au...
متن کاملCube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté
Lamia Oukid et Al. Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté 1 / 27
متن کاملA note on polynomial approximation in Sobolev spaces
Résumé: Pour des domaines étoilés on donne des nouvelles bornes sur les constants dans les inégalités de Jackson pour les espaces de Sobolev. Pour des domaines convexes, les bornes ne dépendent pas de l’excentricité. Pour des domaines non-convexes ayant un point rentrant, les bornes sont uniformes par rapport à l’angle extérieur. L’outil central est un nouvel opérateur de projection sur l’espac...
متن کاملMulti-catégorisation de textes juridiques et retour de pertinence
Résumé. La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l’objectif est le classement automatique de ces textes. Nous utilisons des outils d’analyses linguistiques (extraction de terminologie) dans le ...
متن کاملExploitation de l'asymétrie entre termes pour l'extraction automatique de taxonomies à partir de textes
Résumé. Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l’hypothèse forte selon laquelle l’accumulation de faits statistiques simples sur les usages en corpus permet d’approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme ca...
متن کامل